本文介绍了用于文档图像分析的图像数据集的系统文献综述,重点是历史文档,例如手写手稿和早期印刷品。寻找适当的数据集进行历史文档分析是促进使用不同机器学习算法进行研究的关键先决条件。但是,由于实际数据非常多(例如,脚本,任务,日期,支持系统和劣化量),数据和标签表示的不同格式以及不同的评估过程和基准,因此找到适当的数据集是一项艰巨的任务。这项工作填补了这一空白,并在现有数据集中介绍了元研究。经过系统的选择过程(根据PRISMA指南),我们选择了56项根据不同因素选择的研究,例如出版年份,文章中实施的方法数量,所选算法的可靠性,数据集大小和期刊的可靠性出口。我们通过将其分配给三个预定义的任务之一来总结每个研究:文档分类,布局结构或语义分析。我们为每个数据集提供统计,文档类型,语言,任务,输入视觉方面和地面真实信息。此外,我们还提供了这些论文或最近竞争的基准任务和结果。我们进一步讨论了该领域的差距和挑战。我们倡导将转换工具提供到通用格式(例如,用于计算机视觉任务的可可格式),并始终提供一组评估指标,而不仅仅是一种评估指标,以使整个研究的结果可比性。
translated by 谷歌翻译
地下模拟使用计算模型来预测流体(例如油,水,气体)通过多孔介质的流动。这些模拟在工业应用(例如石油生产)中至关重要,在这些应用中,需要快速,准确的模型来进行高级决策,例如,进行井安置优化和现场开发计划。经典的有限差数数值模拟器需要大量的计算资源来对大规模现实世界的水库进行建模。另外,通过依靠近似物理模型,流线模拟器和数据驱动的替代模型在计算上更有效,但是它们不足以在大规模上对复杂的储层动力学进行建模。在这里,我们介绍了混合图网络模拟器(HGNS),这是一个数据驱动的替代模型,用于学习3D地下流体流的储层模拟。为了模拟局部和全球尺度上的复杂储层动力学,HGN由地下图神经网络(SGNN)组成,以建模流体流的演化和3D-U-NET,以建模压力的演变。 HGNS能够扩展到每个时间步长数百万个单元的网格,比以前的替代模型高两个数量级,并且可以准确地预测流体流量数十亿个时间步长(未来几年)。使用带有110万个单元的行业标准地下流数据集(SPE-10),我们证明HGNS能够将推理时间降低到与标准地下模拟器相比,最高18次,并且通过降低基于学习的模型,它可以优于其他基于学习的模型长期预测错误高达21%。
translated by 谷歌翻译